- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接
- <iframe src="https://www.slidestalk.com/RayChina /387229?embed&video" frame border="0" width="640" height="360" scrolling="no" allowfullscreen="true">复制
- 微信扫一扫分享
3. Ray在分布式训练容错和数据缓存上的实践-邱爽
分享
点赞
1
收藏
0
深度学习模型训练周期长,消耗计算资源多;分布式训练的稳定性和耗时性能是模型选代的关键指标,我们利用ray actor的状态持有特性,监控用户训练状态和计算节点GPU健康状态,自动伸缩训练任务至健康的计算节点,提高训练过程的容借性,为了解决分布式训练数据加载的性能瓶颈,我们利用ray object缓存训练所需的数据集,并且利用数据分布的局部性特征优化数据加载的务分发,在生产应用中获得了预期的性能收益。 邱爽,大疆创新-高性能计算富级工程师
展开查看详情
1点赞
0收藏
相关推荐

基于SeaTunnel快速集成SAP进入Redshift
SeaTunnel

联通数科基于Apache Dolphinscheduler构建Dataops一体化能力
DolphinScheduler社区

DolphinScheduler在铁骑力士集团的落地应用实践
DolphinScheduler社区

Apache DolphinScheduler发版流程与避坑指南
DolphinScheduler社区

Apache SeaTunnel 2.3.8版本更新抢先看!
SeaTunnel

轻松搭建云上数仓 - DolphinScheduler + Serverless Spark
DolphinScheduler社区

Apache DolphinScheduler在BMR中的实践
DolphinScheduler社区

agentUniverse X 浙大太乙平台,开源共建招募令来啦,3万奖金等你拿!
agentUniverse
3秒后跳转登录页面
去登陆